10. 练习:动作值函数
练习:动作值函数
正确或错误? :对于确定性策略 \pi ,
v_\pi(s) = q_\pi(s, \pi(s))
适用于所有 s \in \mathcal{S} 。
在回答这个问题时,可以使用上述状态值函数和动作值函数作为确定性策略示例。
正确或错误? :对于确定性策略 \pi ,
v_\pi(s) = q_\pi(s, \pi(s))
适用于所有 s \in \mathcal{S} 。
在回答这个问题时,可以使用上述状态值函数和动作值函数作为确定性策略示例。